Stable Diffusion
Stable Diffusion(ステイブル・ディフュージョン)は、テキスト入力をもとに画像を生成するためのディープラーニングモデルです。2022年に公開され、多様な用途に対応できる柔軟性が特長です。主な機能には、テキストから新たな画像を生成する「テキスト・トゥ・イメージ」、与えられた画像に新しい要素を加える「イメージ・トゥ・イメージ」、既存の画像の一部を変換する「インペインティング」、画像の拡張を行う「アウトペインティング」があります。
開発と公開
このAIモデルは、ミュンヘン大学のCompVisグループが開発した潜在拡散モデルを基にしており、Stability AI、CompVis LMU、Runwayが共同でリリースしました。開発過程では、多くの資金調達が行われ、特に2022年10月には、Lightspeed Venture PartnersとCoatue Managementが主導するラウンドで1億100万ドルを調達しました。これにより、一般向けに開放される運びとなり、少なくとも8GBのVRAMを持つGPUさえあれば、個々のユーザーが手軽に利用できるようになりました。
技術的背景
Stable Diffusionは、拡散モデルに基づくもので、デノイジング・オートエンコーダやU-Netといった構造から成り立っています。具体的には、画像を低次元の潜在空間に圧縮する変分オートエンコーダや、ノイズを除去するU-Net、テキストエンコーダが組み合わさった構成です。これにより、与えられたテキストプロンプトをもとに、画像生成の際に非常に高い計算効率を実現しています。
学習データ
Stable Diffusionは、LAION-5Bと呼ばれる大規模なデータセットから学習しており、これには5億枚以上の画像とそれに対応するテキストが含まれています。これらのデータは、生成モデルが要求する多様な情報を提供し、特に多くの画像から抽出されたデータで構成されています。学習プロセスでは、特に美的品質が高いと予測されるサブセットに重点が置かれており、実際には約47%の画像が100以上のドメインから取得されています。
制限事項と課題
しかし、Stable Diffusionにはいくつかの課題もあります。初期バージョンでは512×512ピクセルの解像度で訓練されていたため、それを超える解像度に対しては品質が低下することが指摘されています。また、特に人間の手足の生成に関するデータの質が低いため、これらの生成に関しては若干の混乱も見受けられます。バージョン2.0以降では解像度が768×768に対応しているものの、データセットの特性からくる限界は残ります。
倫理的・法的問題
Stable Diffusionは、生成された画像の
著作権に関する複雑な状況を抱えています。このモデルは
著作権で保護された素材から学習しているため、
著作権に関する法律や
倫理が問題視され、多くの訴訟が提起されています。特に、著作物の無断使用が、アーティストや権利者によって指摘されており、合法性やフェアユースが議論となる事例が増えています。
最後に
このように、Stable Diffusionは革新的なAI技術である一方で、法的・
倫理的な課題に直面しています。今後の技術の進展と運用において、適切なガイダンスと責任ある利用が求められています。